机器学习数据集引起了对隐私,偏见和不道德应用的担忧,导致突出数据集的缩写,例如Dukemtmc,MS-Celeb-1M和微小图像。作为响应,机器学习界已在数据集创建中呼吁更高的道德标准。为了帮助通知这些努力,我们研究了三个有影响力的但道德问题的面部和人识别数据集 - 在野外(LFW),MS-Celeb-1M和DukemTM中标记的面孔 - 通过分析近1000篇引用它们的纸张。我们发现,创建衍生数据集和模型,更广泛的技术和社会变革,许可证缺乏清晰度,数据集管理实践可以引入广泛的道德问题。我们通过表明分布式方法来伤害消除数据集的整个生命周期的危害。
translated by 谷歌翻译
The domain of joint vision-language understanding, especially in the context of reasoning in Visual Question Answering (VQA) models, has garnered significant attention in the recent past. While most of the existing VQA models focus on improving the accuracy of VQA, the way models arrive at an answer is oftentimes a black box. As a step towards making the VQA task more explainable and interpretable, our method is built upon the SOTA VQA framework by augmenting it with an end-to-end explanation generation module. In this paper, we investigate two network architectures, including Long Short-Term Memory (LSTM) and Transformer decoder, as the explanation generator. Our method generates human-readable textual explanations while maintaining SOTA VQA accuracy on the GQA-REX (77.49%) and VQA-E (71.48%) datasets. Approximately 65.16% of the generated explanations are approved by humans as valid. Roughly 60.5% of the generated explanations are valid and lead to the correct answers.
translated by 谷歌翻译
Federated learning (FL) on deep neural networks facilitates new applications at the edge, especially for wearable and Internet-of-Thing devices. Such devices capture a large and diverse amount of data, but they have memory, compute, power, and connectivity constraints which hinder their participation in FL. We propose Centaur, a multitier FL framework, enabling ultra-constrained devices to efficiently participate in FL on large neural nets. Centaur combines two major ideas: (i) a data selection scheme to choose a portion of samples that accelerates the learning, and (ii) a partition-based training algorithm that integrates both constrained and powerful devices owned by the same user. Evaluations, on four benchmark neural nets and three datasets, show that Centaur gains ~10% higher accuracy than local training on constrained devices with ~58% energy saving on average. Our experimental results also demonstrate the superior efficiency of Centaur when dealing with imbalanced data, client participation heterogeneity, and various network connection probabilities.
translated by 谷歌翻译
我们假设现有的句子级机器翻译(MT)指标在人类参考包含歧义时会效率降低。为了验证这一假设,我们提出了一种非常简单的方法,用于扩展预审计的指标以在文档级别合并上下文。我们将我们的方法应用于三个流行的指标,即Bertscore,Prism和Comet,以及无参考的公制Comet-QE。我们使用提供的MQM注释评估WMT 2021指标共享任务的扩展指标。我们的结果表明,扩展指标的表现在约85%的测试条件下优于其句子级别的级别,而在排除低质量人类参考的结果时。此外,我们表明我们的文档级扩展大大提高了其对话语现象任务的准确性,从而优于专用基线高达6.1%。我们的实验结果支持我们的初始假设,并表明对指标的简单扩展使他们能够利用上下文来解决参考中的歧义。
translated by 谷歌翻译
现代社会有兴趣由于复杂的相机的激增而捕获高分辨率和优质图像。但是,如果在计算机视觉任务中使用了此类图像,则图像中的噪声污染不仅较低,而且相反会影响随后的过程,例如遥感,对象跟踪等。高分辨率图像的时间处理受图像捕获仪器的硬件限制的限制。 Geodesic Gramian denoising(GGD)是一种基于多种噪声滤波方法,我们在过去的研究中介绍了该方法,它利用了Geodesics的Gramian Gramian矩阵的一些突出的奇异向量进行噪声滤波过程。 GDD遇到$ \ MATHCAL {O}(n^6)$时,GDD的适用性受到限制^2 $数据矩阵由单数值分解(SVD)实现。在这项研究中,我们通过用四种不同的单数矢量近似技术代替其SVD步骤来提高GGD框架的效率。在这里,我们比较集成到GGD中的四个技术之间的计算时间和噪声过滤性能。
translated by 谷歌翻译
我们设计和分析了量子变压器,扩展了最先进的经典变压器神经网络体系结构,已知在自然语言处理和图像分析中表现出色。在先前用于数据加载和正交神经层的参数化量子电路的工作的基础上,我们引入了三种量子注意机制,包括基于复合矩阵的量子变压器。这些量子体系结构可以使用浅量子电路构建,并可以提供定性不同的分类模型。与最佳的经典变压器和其他经典基准相比,我们对标准医疗图像数据集进行了量子变压器的广泛模拟,这些量子变压器表现出竞争力,有时表现更好。与经典算法相对于分类图像的大小,我们的量子注意层的计算复杂性被证明是有利的。与拥有数百万参数的最佳经典方法相比,我们的量子体系结构具有数千个参数。最后,我们在超导量子计算机上实施了量子变压器,并获得了多达六个量子实验的令人鼓舞的结果。
translated by 谷歌翻译
深度学习已被广​​泛应用于神经影像学,包括预测磁共振成像(MRI)体积的脑表型关系。 MRI数据通常需要进行广泛的预处理,然后才能通过深度学习准备建模,部分原因是其高维和异质性。各种MRI预处理管道都有自己的优势和局限性。最近的研究表明,即使使用相同的数据,与管道相关的变化也可能导致不同的科学发现。同时,机器学习社区强调了从以模型为中心转移到以数据为中心的方法的重要性,因为数据质量在深度学习应用中起着至关重要的作用。在这个想法的激励下,我们首先评估预处理管道选择如何影响监督学习模型的下游表现。接下来,我们提出了两个管道不变表示方法MPSL和PXL,以提高分类性能的一致性并捕获管道对之间的类似神经网络表示。使用来自英国生物库数据集的2000名人类受试者,我们证明了这两种模型都具有独特的优势,特别是可以使用MPSL来改善对新管道的样本概括,而PXL则可以用来提高预测性能一致性和代表性封闭管道集中的相似性。这些结果表明,我们提出的模型可用于克服与管道相关的偏差,并提高神经成像预测任务的可重复性。
translated by 谷歌翻译
在我们的多元文化世界中,支持人类的情感意识AI系统需要能够感知各种文化情绪表达模式变化的影响的能力。这些模型必须在未经培训的文化背景下表现良好。情感计算中的一个标准假设是,在同一文化中受过训练和使用的识别模型(文化内部)的表现将比在一种文化中训练并用于不同文化(跨文化)的模型更好。我们测试了这一假设,并使用来自六种文化的现实世界二元相互作用的视频进行了对跨文化影响识别模型的首次系统研究。我们在时间因果发现下开发了一种基于注意力的特征选择方法,以识别可以在跨文化情感识别模型中利用的行为线索。在所有六种文化中,我们的发现表明,跨文化影响识别模型比内文化模型更有效或更有效。我们确定并为跨文化情感识别而做出有用的行为特征;在本研究的背景下,视觉方式的面部特征比音频方式更有用。我们的论文介绍了跨文化影响识别系统未来发展的概念和动机。
translated by 谷歌翻译
Sockeye 3是神经机器翻译(NMT)的Mockeye工具包的最新版本。现在,基于Pytorch,Sockeye 3提供了更快的模型实现和更高级的功能,并具有进一步的简化代码库。这可以通过更快的迭代,对更强大,更快的模型进行有效的培训以及快速从研究转移到生产的新想法的灵活性,从而实现更广泛的实验。当运行可比较的型号时,Sockeye 3的速度比GPU上的其他Pytorch实现快126%,在CPU上的实现速度高达292%。Sockeye 3是根据Apache 2.0许可发布的开源软件。
translated by 谷歌翻译
模仿学习在有效地学习政策方面对复杂的决策问题有着巨大的希望。当前的最新算法经常使用逆增强学习(IRL),在给定一组专家演示的情况下,代理会替代奖励功能和相关的最佳策略。但是,这种IRL方法通常需要在复杂控制问题上进行实质性的在线互动。在这项工作中,我们提出了正规化的最佳运输(ROT),这是一种新的模仿学习算法,基于最佳基于最佳运输轨迹匹配的最新进展。我们的主要技术见解是,即使只有少量演示,即使只有少量演示,也可以自适应地将轨迹匹配的奖励与行为克隆相结合。我们对横跨DeepMind Control Suite,OpenAI Robotics和Meta-World基准的20个视觉控制任务进行的实验表明,与先前最新的方法相比,平均仿真达到了90%的专家绩效的速度,达到了90%的专家性能。 。在现实世界的机器人操作中,只有一次演示和一个小时的在线培训,ROT在14个任务中的平均成功率为90.1%。
translated by 谷歌翻译